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匹配 ， 以 获 


摘要 : ”信息 抽取 是 当前 搜索 引擎 与 自然 语言 处 理 研究 领域 的 核心 技术 之 一 ， 它 用 来 对 文本 做 
得 其 中 包含 的 各 种 实体 以 及 它们 的 属性 及 关系 。 本 文 对 实体 及 其 属性 的 抽取 做 了 简单 介绍 ， 包 括 基于 规则 
的 抽取 技术 和 基于 统计 的 抽取 技术 ， 并 介绍 了 儿 个 典型 的 系统 实例 ， 如 : 了 2、GAIE 和 SystemT 及 它们 的 原 
理 ， 最 后 简单 介绍 了 我 们 在 这 个 领域 的 工作 成 果 。 
关键 词 : 信息 抽取 ， 实 体 抽 取 ， 规 则 匹配 
1 信息 抽取 技术 简介 

信息 抽取 是 指 从 非 结构 化 的 信息 源 中 抽取 出 特定 的 信息 , 并 将 抽取 出 来 的 信息 以 结构 化 
形式 进行 保存 (如 保存 到 数据 库 或 者 XML 文件 中 )， 供 进一步 查询 和 分 析 。 抽 取出 来 的 信 
县 类 型 包括 实体 、 实 体 的 关系 以 及 实体 的 属性 等 。 例 如 ， 从 新 闻 报 道中 可 以 抽 
相应 的 时 间 、 地 点 、 人 物 以 及 人 物 之 间 的 关系 。 随 着 互联 网 信息 数量 


技术 被 大 量 用 于 分 析 网 页 和 
抽取 产品 属性 )、 情 


文本 ， 包 括 在 舆情 监控 〈 如 匹配 敏感 信息 )、 
感 分 析 (如 抽取 询 财 特 角 


GRRE, 


IHX 


电子 商务 (如 


)、 甚 至 自然 语言 处 理 技 术 本 身 ( 如 匹配 词性 标 


注 或 名 词 短语 语法 规则 集 ) 等 诸多 领域 。 对 信息 抽取 技术 的 研究 也 已 经 持续 了 很 多 年 ， 引 


文 [1-4] 对 于 信息 抽取 技术 和 系统 进行 了 总 结 。 


信息 抽取 的 快速 发 


划 密 切 相 关 。MUC(Message Understanding Conferences, WUA 
究 计划 署 (DARPA) 发 起 , 目标 是 对 不 同 的 信息 抽取 系统 就 某 一 特定 领域 


展 同 MUC, LRE, ACE, EMLIED 和 SIGHAN 447) 


理解 会 议 ) 由 美国 


测 会 议和 项 目 计 
国防 部 高 级 研 
的 自由 文本 抽取 的 


效果 进行 评测 , 从 1987 年 至 1998 年 共 举 办 了 7 届 。LRE(Linguistic Research and Engineering, 


wj 


语言 研究 


词典 和 提 


与 工程 


) 


定 信息 ， 包 括 实体 、 实 体 关系 和 
了 针对 汉语 的 评测 。 


SIGHAN 评测 则 关注 中 文 处 理 ， 
Linguistics, ACL) 的 汉语 处 理 特 殊 兴 


了 对 命名 实体 识别 的 评测 。 


一 般 来 说 ， 为 完成 一 项 信 ， 
提供 一 个 标注 文档 集 来 对 扩 
与 用 户 定义 相符 的 数据 。 


基于 统计 的 信息 了 


欧盟 发 起 ， 资 助 项 目 为 信息 抽取 
] 取 实体 等 。ACE(Automatic Content Extraction， 自 动 内 容 抽 取 ) 是 MUC 停办 后 美国 
家 标准 技术 研究 所 (NIST) 发 起 的 自动 内 容 抽 取 评 测 会 议 ， 
事件 ， 从 1999 ER 


1 ya FE 
因此 ， 从 寺 


由 计 


E 


算 


EH H 


昌 抽 取 任 务 ， 需 要 事先 提供 
作 间接 限定 , 信息 抽取 系统 以 出 
I 取 技 术 来 说 ,一 般 可 以 分 为 基于 规则 的 
由 取 技 术 : 前 者 是 由 用 户 提 供 抽取 的 规则 ， 由 


一 组 规 贝 


发 工具 和 组 件 ， 包 括 从 文档 集 


1 直接 定义 抽取 


获取 


标 是 从 文本 中 自动 抽取 特 
F 始 举办 至 今 ，ACE 从 2003 年 开始 加 入 


语言 学 协会 (Association for Computational 


小 组 发 起 ，2003 年 首次 举办 ， 从 2006 年 开始 加 入 


标 ; 


或 是 


为 基础 从 其 它 文档 
ART 


寻找 


HAR AL 


取 系 统 执行 


在 特定 领域 一 般 具有 很 高 的 精 


IRE; 后 者 则 是 1 


用 户 提供 标注 的 训练 集 ， 由 扩 


匹配 ， 这 种 方法 
1 取 系 统 


自动 学 


习 抽 取 的 准则 ， 这 种 方法 对 文本 ! 


ie 


1 Extensible Markup Language, "Ji 


A 


展 标记 语言 


有 较 好 的 健壮 性 ， 有 相对 较 高 的 如 


E 


FB 6 


实体 及 其 属性 的 相关 抽取 技术 


F 面 将 从 基于 规则 的 抽取 方法 、 基 于 统计 的 抽取 方法 、 系 统 实例 以 及 我 们 的 工作 等 几 个 
方面 分 别 进行 介绍 。 


2 ”基于 规则 的 实体 抽取 方法 


常见 实体 包括 人 人物、 地点、 机构 、 日 期 等 。 基于 规则 的 抽取 方法 利用 规则 进行 实体 抽取 。 
规则 可 以 由 人 工 编写 , 也 可 以 通过 自动 学 习 的 方法 生成 。 这 种 方法 的 优点 是 规则 表现 形式 简 
单 ， 易 于 被 人 所 理解 ,并 且 便于 维护 和 扩展 。 规 则 方法 所 使 用 的 抽取 规则 之 间 彼 此 可 以 相互 
独立 ; 也 可 以 存在 依赖 关系 ， 例 如 组 成 一 个 上 下 文 无 关 文 法 。 


2.1 规则 的 表现 形式 


用 户 信息 抽取 的 规则 一 般 由 一 组 条 件 和 一 个 对 应 的 动作 组 成 。 条 件 包括 命名 实体 特征 和 

上 下 文 环境 特征 ; 动作 指 将 命名 实体 标记 为 相应 的 类 别 。 规 则 使 用 的 实体 特征 可 以 包括 : 字 

符 串 、 词 形 特 征 《〈 例 如 大 小 写 和 标点 符号 等 )、 词 性 特征 、 词 所 属 的 概念 类 别 以 及 上 下 文 环 

境 中 词 的 共 现 等 。 当 输入 文本 满足 规则 规定 的 条 件 时 ， 相 应 的 动作 就 被 触发 。 

来 进行 实体 抽取 的 规则 按照 表现 形式 可 以 分 为 三 类 : 

1. ”定义 实体 本 身 : 这 类 规则 同时 限定 实体 的 组 成 形式 以 及 它 的 上 下 文 边界 。 例 如 定 
义 英文 中 的 公司 名 时 ， 可 以 限制 实体 的 后 级 在 形式 上 首 字母 为 大 写 ， 且 它 必须 出 
现在 一 个 由 LLC、Corp. 等 组 成 的 领域 词典 中 。 

2. ”定义 实体 的 边界 : 有 时 无 法 对 实体 的 组 成 形式 给 出 准确 而 全 面 的 定义 ; 但 可 以 给 
出 实体 的 上 下 文 边界 的 定义 。 例 如 定义 journal 这 个 实体 的 前 方 边界 为 “to appear 
in”. 

3. ”定义 多 个 实体 : 可 以 利用 实体 处 于 同一 个 上 下 文 环境 来 做 语义 消 歧 ， 进 而 同时 定 
义 多 个 实体 ， 例 如 Number 在 和 Bedrooms 在 一 起 时 可 以 定义 为 房间 数 或 是 租金 。 

在 实际 的 规则 系统 中 , 经 常 出 现 大 量规 则 相互 冲突 的 情况 ,譬如 规则 匹配 到 的 实体 的 文 

本 相互 重 营 。 为 解决 这 个 问题 ， 有 两 种 策略 : 


© ”将 规则 集合 看 成 是 彼此 无 序 。 规 则 之 间 相 互 独 立 ， 如 果 发 生 冲 突 ， 则 按照 某 种 预定 
© 的 策略 来 解决 ， 比 如 选择 匹配 区 域 较 长 的 文本 。 


© 将 规则 集合 看 成 是 有 序 的 ， 匹 配 前 先 定义 好 规则 的 顺序 ， 然 后 按照 顺序 执行 规则 。 
这 种 序列 关系 可 以 以 规则 覆盖 率 或 者 准确 率 作为 排序 指标 。 

2.2 规则 库 构 建 

可 以 通过 人 工 编写 和 自动 学 习 两 种 方式 来 产生 实体 抽取 的 规则 。 
基于 人 工 编写 的 方式 , 就 是 领域 专家 或 者 语言 学 家 手工 编写 抽取 规则 。 该 方法 需要 规则 
的 编写 者 具备 丰富 的 领域 知识 和 语言 学 知识 ， 同 时 还 需要 大 量 的 人 工分 析 来 进行 总 结 归纳 ， 
是 一 项 非常 耗费 时 间 和 人 力 的 工作 ， 但 是 这 种 方法 也 往往 能 够 得 到 非常 高 的 准确 率 。 
基于 自动 学 习 的 方式 ， 是 指 在 标记 好 的 语料库 上 进行 训练 ， 得 到 规则 。 该 方法 不 但 能 节 
省 人 力 和 时 间 , 还 可 以 挖掘 出 人 工 观测 所 不 易 发 现 的 特征 ; 但 是 该 方法 需要 大 量 标注 好 的 训 
练 语 料 ， 如 果 训 练 语 料 不 充分 或 者 标注 质量 不 高 ， 会 导致 训练 效果 较 差 ， 另 外 ， 训 练 语 料 的 
标注 本 身 也 是 一 个 耗 时 耗 力 的 工作 。 
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2.3 规则 自动 学 习 


自动 学 习 的 输入 是 一 个 已 经 标注 出 待 抽 取 结 果 的 文档 集 ， 输 出 是 一 组 用 于 抽取 的 规则 。 
已 有 的 规则 自动 学 习 方 法 有 序列 覆盖 方法 (Sequential Covering Algorithm) 和 基于 转换 的 学 习 
方法 (Transformation based Learning) 两 类 ， 它 们 分 别 对 应 于 规则 从 无 到 有 的 建立 和 对 已 有 规 
则 的 选取 两 步 。 

1. ”序列 覆盖 方法 

序列 覆盖 算法 是 一 种 归纳 学 习 算 法 ， 包 括 自 底 向 上 (Bottom-Up) 和 自 顶 向 下 
(Top-Down) 两 种 。 自 底 向 上 的 方法 是 一 个 泛 化 的 过 程 ， 代 表 性 的 算法 是 (LP)" 中 ,基本 流 
程 如 下 : 


训练 集中 选择 某 个 样本 实例 ， 将 其 所 对 应 的 最 具体 的 规则 作为 种 子规 则 。 
泛 化 这 条 种 子规 则 《放松 规则 中 的 某 个 条 件 限制 或 者 移 除 该 条 件 )， 直 到 符合 


某 种 标准 ， 将 泛 化 后 的 规则 加 入 到 规则 集中 。 


将 泛 化 后 的 规则 所 覆盖 到 的 样本 从 训练 集中 移 走 。 
重复 上 述 步骤 直到 训练 集合 为 空 。 


而 自 项 向 下 的 方法 是 一 个 具体 化 的 过 程 ， 代 表 性 的 算法 包括 FOIL), 基本 流程 如 


从 训练 集中 选择 某 个 样本 实例 ， 将 其 所 对 应 的 上 基体 的 规则 作为 种 子规 则 。 
首先 将 种 子规 则 的 条 件 移 除 , 然后 不 断 加 入 条 件 限制 ,对 该 规则 进行 具体 化 ， 
直到 符合 某 种 标准 ， 将 该 规则 加 入 目标 规则 集合 。 

将 规则 所 覆盖 到 的 样本 从 训练 集中 移 走 。 
重复 上 述 步骤 直到 训练 集合 为 空 。 


cal 


从 上 述 两 种 算法 流程 可 以 看 出 ， 由 于 搜索 方向 不 同 ， 自 底 向 上 的 方式 倾向 于 产生 比较 具 
体 的 规则 ,训练 过 程 中 不 断 提高 所 产生 规则 的 召回 率 ; 而 自 项 向 下 更 倾向 于 产生 比较 泛 化 的 
规则 ， 训 练 过 程 中 不 断 提高 所 产生 规则 的 精度 。 
2. 基于 转换 的 学 习 方法 
基于 转换 的 学 习 方法 用 来 学 习 一 组 有 序 的 规则 ， 最 早 由 埃 里 克 . 布 瑞 尔 (Eric Brill) 
提出 运用 于 英文 词性 标注 四 。 该 算法 过 程 非常 简洁 ， 且 能 得 到 不 错 的 效果 ， 流 程 如 下 : 


输入 : 训练 集合 ， 规 则 模板 集 
输出 : 一 组 有 序 的 规则 
(1) 为 训练 集合 的 样本 分 配 一 个 初始 的 类 别 标号 。 

(2) ”遍历 训练 集合 ， 如 果 某 个 训练 样本 被 分 配 的 类 别 标号 不 同 于 其 真实 > 
根据 规则 模板 ， 生 成 相应 的 规则 ， 每 条 规则 计算 一 个 评分 。 

分 取 值 为 该 规则 将 错误 类 别 标号 改 成 正确 类 别 标 号 的 样本 数 与 记 
类 别 标号 改 成 错误 类 别 标号 的 样本 数 之 差 。 

选择 一 条 评分 最 高 的 规则 。 

如 果 该 规则 的 评分 大 于 阔 值 ， 则 返回 到 步骤 02)， 否 则 结束 执行 。 
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算法 流程 中 的 第 一 步 中 要 为 样本 分 配 初始 的 类 别 标号 。 这 个 分 配方 法 可 以 视 具 体 应 用 而 
定 。 例 如 , 可 以 利用 成 熟 的 分 类 方法 先 为 该 样本 分 配 一 个 最 有 可 能 的 类 别 标号 , 在 此 基础 上 ， 
再 进行 转换 处 理 。 所 以 ， 基于 转换 的 学 习 多 是 作为 后 续 处 理 过 程 ， 来 提高 此 前 标记 过 程 的 准 
确 度 。 


2.4 规则 执行 的 性 能 优化 


基于 规则 的 抽取 系统 一 般 采 取 有 穷 状 态 自动 机 (Finite-State Transducer) 技术 来 优化 规 
则 的 匹配 。 多 数 规则 ， 包 括 词典 和 正则 表达 式 以 及 它们 的 集合 ， 都 可 以 用 自动 机 来 表示 。 更 
进一步 , 实体 类 别 间 的 关系 通常 可 以 由 一 个 上 下 文 无 关 文法 来 表示 , 这 使 得 我 们 可 以 用 层 登 
有 穷 状态 自动 机 (Cascaded Finite-State Transducers) 技术 来 表示 一 个 规则 集 并 将 它 与 输入 文 
本 进行 高 效 的 匹配 。 这 种 传统 的 技术 路 线 在 当前 受到 了 两 方面 的 挑战 : 一 方面 ,抽取 目标 更 
加 复杂 ,用 户 往往 需要 在 特定 的 知识 领域 做 抽取 , 这 要 求 抽取 系统 能 在 不 同 的 领域 让 用 户 自 
己 声明 抽取 目标 后 针对 用 户 需 求 做 抽取 ; 男 一 方面 ,抽取 系统 针对 的 数据 集 规模 太 大 (通常 
是 数 以 亿 计 的 文档 )， 这 就 要 求 抽取 系统 必须 采取 一 定 的 优化 策略 来 提高 数据 处 理 效 紊 。 近 
_ 两 年 提出 的 SystemT 0 和 DBLifel 就 是 属于 这 一 类 试图 做 高 效率 声明 式 信 息 抽取 的 系统 。 
~ 它们 使 用 通用 的 信息 抽取 语言 (AQL 和 Datalog) 来 声明 抽取 的 实体 目标 ， 将 规则 语句 用 一 定 
9 的 编译 技术 进行 优化 , 并 在 处 理 海 量 数据 时 针对 数据 特性 动态 调整 规则 的 执行 顺序 以 避免 不 
= 必要 的 匹配 ， 从 而 提高 速度 ， 因 此 具有 较 好 的 效果 。 


3 ”基于 统计 学 习 的 实体 抽取 方法 


统计 方法 一 BA a dere lees » 选 出 那些 构成 实 
体 及 属性 的 片段 输出 。 切 分 可 能 存在 不 同 的 层次 ， 可 以 切 分 成 字 或 切 分 成 词 ， 这 使 得 分 类 的 
特征 有 所 不 同 。 E 首先 人 工 选择 一 部 分 标注 出 那些 实际 构成 实体 的 片 
段 ， 形 成 标注 语料库 ; 然后 根据 语料库 ， 利 用 统计 方法 ， 训 练 出 根据 文本 片段 的 上 下 文 环 境 
E 测 它 构 成 实体 及 属性 的 概率 模型 ; 最 后 将 模型 应 用 于 那些 未 标注 的 文本 进行 分 析 , 选择 

能 性 最 大 的 输出 。 尽管 这 种 方法 得 到 的 模型 往往 不 为 人 所 理解 , 但 它 对 文本 中 的 噪声 具有 
oa :性 。 


3.1 特征 选择 及 其 表示 


文本 片段 的 标注 类 别 取决 于 切 分 的 层次 和 实体 的 种 类 。 如 果 切 分 到 词 和 短语 级 别 ， 则 每 
个 片段 的 类 别 直 接 与 实体 的 种 类 相对 应 。 如 果 切 分 到 字 的 级 别 ， 即 单个 文本 片段 不 足以 构成 
实体 ， 此 时 有 两 种 不 同 的 分 类 方法 : 假定 某 类 实体 为 A， 则 文本 片段 的 类 别 在 BCEO 分 类 
方法 下 有 A_Begin, A_Continue, A_End 和 Other 四 类 ， 对 应 着 A 类 实体 文本 的 开始 、 中 间 、 
结束 和 与 之 无 关 ; 在 BIO 分 类 方法 下 有 A_Begin, A_Inside 和 Other 三 类 ， 分 别 对 应 于 开始 、 
在 其 中 和 与 之 无 关 。 因 此 ， 人 在 BCEO 方法 下 ， 每 一 个 文本 片 
段 可 能 属于 3xm+1 种 不 同类 别 ; 在 BIO 方法 下 ， 每 一 个 文本 片段 可 能 属于 2xm+1 种 不 同 
类 别 。 


用 于 对 文本 片段 进行 分 类 的 特征 可 以 统一 表示 为 : 


f :(x,y,i) >R 


这 里 假定 文本 被 切 分 为 一 个 序列 x= (XXX) RA f 表示 文本 为 x 时 将 第 i 个 词 
xi 标记 为 y 的 情况 。 例 如 : 
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万 (xy 站 ={xi =" 毛 ,xna = "TEA" } © Ly = Person _ Start} 表示 在 将 文本 切 分 到 字 时 ， 


当 Xi 是 “ 毛 ” 


xin LR 


xi+2 是 “ 东 ” 时 ， 将 xi 标记 为 Person _ Start 的 特征 ; 


f(x, y,i) ={x, € Person_dictionary}e{y = Person} 表示 在 将 文本 切 分 到 词 和 短语 时 , 当 
xi 属于 某 个 词典 Person _dictionary 时 ， xi 标记 为 Person 的 特征 。 


特征 的 选择 可 以 来 源 于 多 个 角度 。 例如， 文本 片段 本 映 、 文 本 片段 属于 茶 个 实体 对 应 的 


村 别 的 词典 、 文 本 片段 在 字形 上 具有 的 某 种 特征 《英文 字符 大 小 写 、 数 字 字 符 )、 文 本 片段 


的 上 下 文 环 境 中 的 


其它 字 词 的 特征 ， 等 等 。 


这 样 , 通过 将 文本 进行 切 分 后 对 每 个 片段 赋予 对 应 的 实体 类 别 , 选择 片段 属性 及 其 上 下 


文 作为 分 类 特征 , 我 们 可 以 将 实体 


类 的 问题 ， 即 计算 Pr {y|x}) 。 


3.2 标注 模型 


如 果 忽 略 实体 类 别 间 的 相互 依赖 关系 , 即 判断 文本 片段 
性 与 上 下 文 特征 ， 可 以 简 音 


FA ee Ai VE (ME) 


地 将 实体 


进行 分 类 。 


Si 


R TEKIN AT EREE 


[E 


取 看 成 普通 的 对 文本 片段 进行 分 类 的 问题 。 
下 和 支持 向 量 机 算法 (SVMDW™ 


lh 取 问题 转化 成 对 文本 切 分 之 后 对 切 分 得 到 的 序列 进行 分 


例如 ,使 


它们 根据 输入 文本 9 


PA Cal 


或 短语 ) 的 属性 和 上 下 文 环 境 特征 来 对 该 文本 片段 标记 类 别 。 但 更 多 时 候 ， 相 邻 的 文本 片段 


的 实体 类 别 存 在 一 定 的 依赖 关系 ， 


因此 需要 从 标注 序列 整体 来 进行 分 类 , 无 法 将 各 个 文本 片 


段 独立 处 理 。 这 种 思路 的 分 类 方法 包括 HMM209，MEMM305 和 CREF409 等 ， 它 们 可 以 同时 
考虑 到 文本 特征 和 类 别 间 的 依赖 。 


HMM, MEMM 


和 CRE 常用 来 为 序列 标注 建 模 ,例如 引文 [17] 利 用 采用 基于 角色 的 HMM 


模型 对 中 国人 名 进行 抽取 ; 引文 [18] 结 合 MEMM 模型 与 规则 方法 做 实体 抽取 ; 引文 [19] 用 


CRE 模型 对 命名 实体 做 抽取 。HMM 的 一 个 主要 缺陷 是 其 
择 ， 导 致 在 一 个 模型 中 不 能 考虑 多 个 特 入 
础 上 进行 了 改进 ， 并 将 新 的 模型 分 别 应 用 到 了 中 文 和 英文 命名 实体 抽取 | 
但 它 在 每 一 节点 都 要 进行 归 一 化 ， 只 能 找到 局 部 最 优 值 ， 同 


HMM 不 存在 特征 受 限 的 问题 ， 
时 也 带 来 了 标记 偏 置 的 问题 。CRF 则 可 以 任意 选择 特征 ， 


归 一 化 ， 


解决 了 MEMM 的 标记 偏 置 问题 。 


它 继 承 了 MEMM 的 优点 ， 同 时 又 


它 并 不 在 每 一 个 节点 进行 归 一 化 ， 而 是 所 有 特征 进行 全 局 
1 此 可 以 求 得 全 局 的 最 优 值 。 因 而 一 般 认 为 CRF 更 适合 于 解决 序列 标注 


E eJ 


输出 独立 性 假设 限制 了 特征 的 选 
E; 针对 该 问题 ， 引 文 [20-21] 分 别 在 传统 的 HMM 基 
Eo MEMM 相 比 于 


根据 CRE 的 马尔 可 夫 性 ， 文 本 片段 序列 中 的 每 一 个 被 标记 元 素 只 依赖 于 与 它 相 邻 的 片 


段 的 类 别 ， 


K 
W(Vi-ts Yis Xi) = eT fi) L ew foxia) 


因此 相 邻 元 素 之 间 的 类 别 的 依赖 性 可 在 以 下 形式 中 体现 : 


它 对 应 在 第 -1 和 i 个 位 置 分 别 标记 为 类 别 yia 和 yi 的 概率 。 此 时 一 个 文本 片段 序列 x 


被 标记 为 y 的 条 件 概率 根据 哈 默 斯 如 


Pr (y|x,w) = 


1 n ME 
Z(x) LY oA) = 


其 中 ，Z(x) 是 


1 
Yew fey) 


y 


DY fooi yia) 


MAHI, HZ (x)= yewfeo9 = ge" Zi。 


”Hidden Markov Models， 隐 马尔 科 夫 模型 
3 Maximum Entropy Markov Models, AH RRL AY 
4 Conditional Random Field， 条 件 随 机 场 


有 -克利 福 德 〈Hammersley-Clifford) 定理 可 以 表示 为 : 


实体 及 其 属性 的 相关 抽取 技术 


3.3 训练 和 分 类 


基于 上 述 Pr (y|x,w) 模型 , 若 将 预先 标 出 实体 的 训练 集 记 为 p={@&,y))”， 可 以 根据 它 来 
估计 其 中 的 模型 的 参数 w 。 用 到 的 训练 算法 通常 有 两 类 : 最 大 似 然 估计 和 最 大 边界 估计 。 


以 最 大 似 然 估计 为 例 来 说 明 训练 的 基本 过 程 。 似 然 函数 可 以 表示 为 : 


L(w)=>log Pr (y, |x w)= Z (w: fx,y) — log Zu (1)) 


为 避免 过 拟 合 导致 部 分 参数 偏差 太 大 ， 可 以 在 似 然 函 数 中 加 入 一 项 -|w| Co BSL 
练 目 标 可 以 表示 为 : 


max(L) = max SD (w: f (;,Y,) —log Z,,(x,))= [Iw | /C 


上 式 是 工 的 凸 函数 ， 因 此 ， 当 工 取 最 大 值 时 ， 对 w 的 梯度 为 0， 即 : 


' wf (xy) 
VL(w) = f (x, y1) aad ae 


= D F (XoY) -E acy POY) — 2W/C 
=0 


2w/C 


基于 该 式 ， 可 以 使 用 迭代 的 方式 来 计算 w ， 相 关 的 迭代 求解 w EASE: CFR A 
和 随机 梯度 法 等。 假定 序列 长 度 为 n ， 类 别 种 类 为 m ， 则 序列 一 共有 O(m" ) 种 可 能 的 标 
记 。 这 种 指数 复杂 性 在 训练 过 程 和 分 类 过 程 中 都 可 以 通过 动态 规划 方法 进行 优化 , 将 其 复杂 
性 降 到 Onm ) ; PUM, X E pryw) f Ooy) A Zo Xr) 都 可 以 通过 动态 规划 方法 快速 计算 。 


4 ”抽取 系统 介绍 


一 般 来 说 , 信息 抽取 系统 可 以 定义 为 一 个 级 联 的 转化 器 或 者 功能 模块 , 使 用 手工 或 自动 
生成 的 规则 为 输入 文本 添加 结构 信息 或 去 掉 不 相关 信息 。 添 加 的 结构 信息 可 能 来 源 于 句法 分 
析 、 词 法 分 析 、 语法 分 析 、 语义 分 析 和 它们 的 级 联 等 。 本 章 将 介绍 儿 个 有 代表 性 的 抽取 系统 ， 
包括 IE2, ANNIE 和 SystemT。 


4.1 IE2 
IE2 9 是 早期 有 代表 性 的 抽取 系统 之 一 。 它 在 MUC-7 中 取得 最 好 的 效果 。IE2 主要 基 
于 手工 编写 的 规则 进行 抽取 ， 由 六 个 功能 模块 组 成 ， 如 下 图 所 示 ; 


NetOwl 定制 化 短语 
抽取 器 3.0| “| 实体 命名 标注 


图 1. IE2 结构 
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般 的 通用 命名 实体 ， 包 括 时 间 、 地 点 、 人 名 和 数字 等 ; 


第 二 个 模块 用 来 识别 与 领域 相关 的 命名 实体 ， 如 交通 事故 领域 的 命名 实体 包括 飞机 , 轿车 或 


者 轮船 等 ， 


复杂 的 名 词 短 语 及 其 包含 的 命名 实体 ;事件 标注 模块 (EventTag ) 识别 句子 


件 片段 ， 共 指 消除 模块 (Discourse Module) 把 指向 同一 实体 的 名 词 短 语 合 3 


得 到 的 实体 用 SGML 标记 ; 短语 标注 模块 (PhraseTag〉 基 于 前 面 结果 发 现 更 加 


的 事件 或 者 事 


Ik TempGen 合并 隶属 于 同一 个 事 人 


4.2 ANNIE 


ANNIE 是 GATE"? 


、 输入 
的 核心 组 件 之 一 ， 提 供 实 


体 及 属性 的 抽取 服务 ， 
英国 谢 菲 尔 德 (Sheffield ) 
大 学 开发 ， 并 公开 了 Java 
源 代码 。 GATE ANNIE 
从 1995 年 开始 开发 至 今 ， 
支持 多 种 语言 和 不 同 领 
域 的 信息 抽取 等 自然 语 
言 处 理 技 术 ， 在 学 术 界 和 
工业 界 有 着 重要 的 影响 。 
图 2 是 ANNIE 及 其 早期 
系统 LaSIEP9 的 结构 : 


其 中 ， 语 种 识别 及 分 
词 (Unicode Tokeniser ) 
用 于 识别 输入 文本 的 语 
言 并 进行 分 词 ; 实体 查 对 
(Gazetteer lookup) 用 于 
对 词 作 标注 ， 将 其 与 


用 户 事先 为 实体 定义 的 词典 建立 联系 , 使 月 
Splitter) 用 于 分 句 ， 语义 标注 


3 最 后 一 个 模 


F 的 事件 片段 ， 并 按照 规定 的 格式 输出 事件 。 


和 GATE 
网 址 或 文本 文档 
语言 识别 | 。 [字符 分 类 Hip JAPE NE 
及 分 词 序列 规则 语法 层次 分 析 
注 ， 圆 角 框 为 数据 

GRR 词 形 词汇 命名 匹配 | ”直角 框 为 处 理 单元 
NS 分 析 语 法 ( 共 指 消除 ) 
H : Butchart AVM Prolog 
REA 解析 器 语法 

JAPE NS XI Prolog WM 
AFARA 名 型 分 析 | | | RAAT 抽取 规则 
imine PRAAN] |】 输出 GATER RGN 

bal NE/TE/TR/TS 标 注 


图 例 : ANNIE 模 块 


LaSIE 模 块 


图 2. ANNIE 及 其 早期 系统 LaSIE 的 结构 


(Semantic Tagger) 


的 部 分 , 它 实现 了 


代码 府 在 Java 代码 内 的 方式 编程 自 定义 


4.3 SystemT 


昌 有 穷 状态 自 


动机 来 加 快 匹 配 ; 句子 切 分 (Sentence 


和 命名 匹配 (Name Matcher) 是 最 重要 


取 目 标 ， 


SystemT”! H 


的 Datalog"’ 


使 用 


IBM BJF] 


抽取 ; 同时 它 对 规则 的 执行 顺序 做 了 一 定 
效率 问题 。 其 结构 如 图 3 所 示 。 在 该 图 


因 


个 通用 的 信息 抽取 语言 JAPE, 让 用 户 根据 语法 和 上 下 文 环境 以 将 JAPE 
具有 广泛 的 适用 性 。 


(Almaden) 研究 中 心 近 两 年 基于 稍 
究 而 成 。 它 的 一 个 主要 创新 在 于 ,提出 了 一 套 从 SQL 扩 
语言 和 ANNIE 使 用 的 JAPE 语言 相似 , 能 够 对 任意 实 
的 优化 ， 以 适应 对 海量 网 络 数据 的 提 
， 用 户 使 用 AQL 编写 的 实 


早 的 Avatart "抽取 系统 丰 


展 的 信息 抽取 语言 ， 与 DBLife 系统 


体 及 其 关系 做 声明 式 
] 取 匹配 带 来 的 
本 抽取 语句 被 优化 器 


(Optimizer) 编 译 成 内 部 形式 ,然后 被 提交 给 运行 时 环境 对 输入 文本 流 进行 匹配 以 寻找 实体 。 
运行 环境 每 次 在 内 存 中 处 理 一 个 文档 以 避免 不 必要 的 磁盘 读 写 开销 。 主 要 优化 策略 包括 :(1) 


规则 重 写 , 即 对 正则 表达 式 等 效率 较 低 的 规则 用 更 
实体 的 字符 串 规则 集 在 内 存 
CPU 和 磁盘 读 写 上 的 时 间 代价 ，(2) 规则 内 部 优化 ， 对 复杂 的 诸如 JOIN 
分 析 规则 内 部 不 同 子 句 之 间 的 依赖 性 , 调整 它们 的 执行 顺序 , 以 避免 不 必要 的 子 句 匹配 开销 。 
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简单 的 


字符 串 规则 进行 重 写 , 以 及 将 多 个 
Pp 同时 匹配 (Shared Dictionary Matching), 这样 可 以 大 幅 减 小 在 


之 类 的 操作 符 ， 


实体 及 其 属性 的 相关 抽取 技术 


例如 在 布尔 规则 AND 中 ， 左 子 句 匹配 失效 则 避免 继续 对 右 子 句 进行 匹配 。 


5 我们 的 工作 


a 


开发 环境 


5.1 技术 挑战 已 标注 
. 规则 文档 流 
我 们 研发 的 实体 及 属性 抽取 系统 主要 应 


用 于 网 络 与 情 分 析 。 实 际 环境 中 竺 抽取 的 网 
页 常常 数 以 亿 计 ， 而 关注 的 目标 往往 存在 于 
不 同 的 领域 ， 包 括 人 物 、 机 构 、 地 点 等 简单 
的 实体 抽取 ， 也 包括 人 物 属性 和 人 物 关系 等 ý 
复杂 的 抽取 任务 。 这 使 得 信息 抽取 在 工程 ae 
必须 重点 解决 抽取 系统 的 效率 和 抽取 技术 的 p> 
通用 性 问题 。 针 对 这 些 难题 ， 我 们 的 技术 路 
线 是 ， 首 先 建立 概念 及 属性 的 描述 语言 ， 通 
过 编写 该 语言 的 代码 定制 抽取 目标 ， 或 通过 
标注 语料库 自动 训练 生成 该 语言 的 代码 来 抽 图 3. SystemT 的 结构 

定 抽取 目标 ， 最 后 将 输入 文本 与 由 用 户 代码 

编译 而 成 的 自动 机 相 匹 配 获得 实体 及 属性 。 


5.2 我 们 的 工作 


在 信息 抽取 方面 ,我 们 结合 实际 项 目 需求 ， 并 跟踪 国际 前 沿 ， 开 展 了 多 项 研发 工作 。 这 
些 工 作 在 实际 工程 应 用 中 发 挥 了 重要 的 作用 ， 包 括 : 


高 效 的 实体 及 属性 抽取 系统 : 该 抽取 系统 由 一 组 规则 模板 组 成 , 用 户 可 以 选择 模板 和 它 
们 的 组 合 来 制定 目标 实体 的 抽取 方式 ; 每 个 规则 在 描述 中 体现 为 一 个 谓词 。 用 户 可 以 使 用 该 
系统 在 他 的 领域 内 编写 代码 完成 对 复杂 实体 的 抽取 工作 。 


抽取 规则 学 习 系 统 : 用 户 可 以 提供 标注 语料库 ， 并 配置 一 些 简单 的 模板 ， 然 后 系统 会 根 
据 统计 方法 自动 训练 出 最 适合 该 标注 语料库 的 抽取 模板 , 使 得 用 户 能 避免 过 多 参与 规则 的 编 
写 和 配置 。 


针对 人 物 属 性 与 关系 的 抽取 技术 : 针对 与 情 分 析 的 实际 项 目 需求 , 我 们 开发 了 一 套 基 于 
上 述 系统 的 对 人 物 属 性 和 关系 进行 抽取 的 技术 , 它 可 以 从 文本 集合 中 自动 抽取 人 物 实体 、 属 
性 及 人 物 关 系 。 


6 ”结论 与 未 来 工作 


信息 抽取 是 当前 搜索 引擎 与 自然 语言 处 理 研 究 领 域 的 核心 技术 之 一 , 也 是 与 情 分 析 的 重 
要 工程 基础 。 尽 管 信息 抽取 已 经 发 展 了 二 十 年 ,但 在 运行 效率 和 通用 性 等 方面 仍然 存在 挑战 。 
本 文 介绍 了 实体 及 属性 的 抽取 技术 ， 并 总 结 了 我 们 在 这 个 领域 的 工作 成 果 。 未 来 工作 中 ,我 
们 一 方面 会 根据 现 有 基础 ， 结 合 SystemT 和 DBLife 等 领先 技术 的 特长 对 我 们 的 系统 在 方法 
上 和 理论 上 进行 改进 ， 男 一 方面 ， 会 将 它 部 署 到 更 多 的 与 情 数据 分 析 的 环节 中 。 
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